智能论文笔记

BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification

Vinura Dhananjaya , Piyumal Demotte , Surangika Ranathunga , Sanath Jayasena

分类：自然语言处理

2022-08-16

这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务，我们的分析表明，在包括Sinhala（XLM-R，Labse和Laser）的预训练的多语言模型中，XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型，它们远远优于僧伽罗的现有预训练的语言模型。我们表明，在微调时，这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线，并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议，用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集，可用于僧伽罗文本分类的未来研究，并公开发布我们的预培训模型。

translated by 谷歌翻译

HyperDog: An Open-Source Quadruped Robot Platform Based on ROS2 and micro-ROS

Nipun Dhananjaya Weerakkodi Mudalige , Iana Zhura , Ildar Babataev , Elena Nazarova , Aleksey Fedoseev , Dzmitry Tsetserukou

分类：机器人

2022-09-19

如今，腿部四足机器人的设计和开发是科学研究的一个非常活跃的领域。实际上，由于与其他移动机器人相比，腿部机器人能够适应严峻的地形和各种环境条件，因此变得流行。随着对腿部机器人实验的需求较高，更多的研究和工程师需要一种负担得起，快速的运动算法开发方式。在本文中，我们提出了一个新的开源四倍的机器人超狗平台，该平台具有12个RC伺服电机，NVIDIA JETSON NANO COMPUTER和STM32F4 DISCOVERY板。 HyperDog是四倍的机器人软件开发的开源平台，该平台基于机器人操作系统2（ROS2）和Micro-Ros。此外，HyperDog是完全由3D印刷零件和碳纤维建造的四倍的机器人狗，它使机器人的重量轻和强度良好。这项工作的想法是证明机器人开发的一种负担得起且可定制的方式，并为研究和工程师提供了腿部机器人平台，在该平台中可以在模拟和真实环境中测试和验证不同的算法。具有代码的开发项目可在GitHub（https://github.com/ndhana94/hyperdog_ros2）上获得。

translated by 谷歌翻译

DogTouch: CNN-based Recognition of Surface Textures by Quadruped Robot with High Density Tactile Sensors

Nipun Dhananjaya Weerakkodi Mudalige , Elena Nazarova , Ildar Babataev , Pavel Kopanev , Aleksey Fedoseev , Miguel Altamirano Cabrera , Dzmitry Tsetserukou

分类：机器人

2022-06-09

在各种地形上进行运动的能力对于腿部机器人至关重要。但是，机器人必须更好地了解其在不同地形上进行强大运动的表面。动物和人类能够在脚上的触觉感觉的帮助下识别表面。虽然，腿部机器人的脚触觉感觉并没有得到太多探索。本文介绍了针对触觉脚（TSF）的新型四足机器人Dogtouch的研究。 TSF允许使用触觉传感器和卷积神经网络（CNN）识别不同的表面纹理。实验结果表明，我们训练有素的基于CNN的模型的足够验证精度为74.37 \％，对线模式的90 \％\％的识别最高。将来，我们计划通过呈现各种模式深度的表面样本并应用高级深度学习和浅层学习模型来改善预测模型。此外，我们提出了一种新颖的方法，用于导航四倍和腿部机器人。我们可以安排触觉铺路纹理表面（类似于盲人或视障人士）。因此，只需识别将指示直路，左或右转弯，行人穿越，道路等的特定触觉图案，就可以在未知环境中进行运动，无论光线如何，都可以允许强大的导航。配备了视觉和触觉感知系统的未来四足机器人将能够在非结构化的室内和室外环境中安全，智能地导航和交互。

translated by 谷歌翻译

GAUSS: Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness

Yasiru Ranasinghe , Kavinga Weerasooriya , Roshan Godaliyadda , Vijitha Herath , Parakrama Ekanayake , Dhananjaya Jayasundara , Lakshitha Ramanayake , Neranjan Senarath , Dulantha Wickramasinghe

分类：计算机视觉

2022-04-16

In recent hyperspectral unmixing (HU) literature, the application of deep learning (DL) has become more prominent, especially with the autoencoder (AE) architecture. We propose a split architecture and use a pseudo-ground truth for abundances to guide the `unmixing network' (UN) optimization. Preceding the UN, an `approximation network' (AN) is proposed, which will improve the association between the centre pixel and its neighbourhood. Hence, it will accentuate spatial correlation in the abundances as its output is the input to the UN and the reference for the `mixing network' (MN). In the Guided Encoder-Decoder Architecture for Hyperspectral Unmixing with Spatial Smoothness (GAUSS), we proposed using one-hot encoded abundances as the pseudo-ground truth to guide the UN; computed using the k-means algorithm to exclude the use of prior HU methods. Furthermore, we release the single-layer constraint on MN by introducing the UN generated abundances in contrast to the standard AE for HU. Secondly, we experimented with two modifications on the pre-trained network using the GAUSS method. In GAUSS$_\textit{blind}$, we have concatenated the UN and the MN to back-propagate the reconstruction error gradients to the encoder. Then, in the GAUSS$_\textit{prime}$, abundance results of a signal processing (SP) method with reliable abundance results were used as the pseudo-ground truth with the GAUSS architecture. According to quantitative and graphical results for four experimental datasets, the three architectures either transcended or equated the performance of existing HU algorithms from both DL and SP domains.

translated by 谷歌翻译

Formant Tracking Using Quasi-Closed Phase Forward-Backward Linear Prediction Analysis and Deep Neural Networks

Dhananjaya Gowda , Bajibabu Bollepalli , Sudarsana Reddy Kadiri , Paavo Alku

分类：机器学习

2022-01-05

通过使用基于动态编程（DP）和深神经网络（DNN）的跟踪器来研究本研究中的制剂跟踪。使用DP方法，比较六种形成六种形成六种方法。六种方法包括线性预测（LP）算法，加权LP算法和最近开发的准闭合前后向后（QCP-FB）方法。 QCP-FB在比较中给出了最佳性能。因此，提出了一种基于QCP-FB的深度学习和信号处理的益处的一种新型格式跟踪方法。在这种方法中，基于DNN的跟踪器从语音帧预测的格式是使用来自同一帧的QCP-FB计算的全极频谱的峰值来改进。结果表明，与参考的格式跟踪器相比，所提出的基于DNN的跟踪器在最低三个塑料中的检测速率和估计误差均更好。例如，与流行的Wavesurefer相比，所提出的跟踪器分别在最低三种矿物的估计误差中减少了29％，48％和35％。

translated by 谷歌翻译

Semi-supervised transfer learning for language expansion of end-to-end speech recognition models to low-resource languages

Jiyeon Kim , Mehul Kumar , Dhananjaya Gowda , Abhinav Garg , Chanwoo Kim

分类：自然语言处理

2021-11-19

在本文中，我们提出了一种三阶段培训方法，提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合，如传输学习，编码器冻结，使用文本到语音（TTS）和半监督学习（SSL）。为了提高低资源意大利ASR的准确性，我们可以分别利用训练有素的英语模型，未标记的文本语料库和未标记的音频语料库，分别分别使用传输学习，TTS增强和SSL。在第一阶段，我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24％的相对字错误率（WER）。在第二阶段，我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21％相对〜21％。最后，在第三阶段，我们通过使用来自未标记的音频数据的SSL来减少另一个4％的相对。总体而言，我们的双通话识别系统在第一次通过的单调散文注意力（Mocha）和第二次通过的全部关注，相对于基线，减少了〜42％的WER。

translated by 谷歌翻译

Weather and Light Level Classification for Autonomous Driving: Dataset, Baseline and Active Learning

Mahesh M Dhananjaya , Varun Ravi Kumar , Senthil Yogamani

分类：计算机视觉 | 机器人

2021-04-28

自动驾驶正在快速推进，级别2个功能正在成为标准功能。最重要的休假之一是在苛刻的天气和低光条件下获得强大的视觉感知，其中精度降解严重。在这些场景期间，具有天气分类模型将降低视觉感知信心至关重要。因此，我们已经为天气（雾，雨，雪）分类和光线（明亮，适度，低）分类建造了新的数据集。此外，我们提供街道类型（沥青，草和鹅卵石）分类，导致9个标签。每个图像都有三个标签，对应天气，光线水平和街道类型。我们录制了利用RCCC（RED / CLEAR）格式的工业前置摄像头的数据，分辨率为1024 \ times1084 $。我们收集了15k视频序列和采样的60K图像。我们实现了一个主动学习框架，以减少数据集的冗余，并找到用于训练模型的最佳帧集。我们将60K图像进一步蒸馏到1.1K图像，这将在隐私匿名化之后公开分享。没有公共数据集的天气和光线分类，专注于自动驾驶到我们的知识。用于天气分类的基线ResET18网络实现了最先进的导致两种非汽车天气分类公共数据集，但在我们提出的数据集中明显降低了准确性，证明它不是饱和的，需要进一步研究。

translated by 谷歌翻译